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Die f olgenden Angaben sind den vom Anmelder eingereichten Unterlagen entnommen 

Priifungsantrag gem. § 44 PatG ist gestellt 

@ Verfahren, Vorrichtung und System zur visuellen Wiedergabe von Sprache in der Sprachkommunikation 

® ErfindungsgemaGe Vorrichtungen (101, 201, 301), Ver- 
fahren und Systeme (100, 200,300) sorgen fur die visuelle 
Wiedergabe von Sprache, beispielsweise die visuelle An- 
zeige eines empfangenen Tonsignals bei der Telekommu- 
nikation, die besonders fur Horbehinderte nutzlich sind. 
Das bevorzugte Ausfuhrungsbeispiel der Vorrichtung urn- 
faftt eine Netzschnittstelle (110), wobei die Netzschnitt- 
stelle mit einem ersten Kommunikationskanal zum Emp- 
fangen eines ersten Tonsignals zur Bildung eines Ton- 
em pf an gssigna Is koppelbar ist, ferner einen Hochfre- 
quenzmodulator (270) zur Umwandlung eines Bildaus- 
gangssignals im Basisband in ein Hochfrequenz-Bildaus- 
gangssignal und zur Ubermittlung des Hochfrequenz- 
Bildausgangssignals auf einem zweiten Kommunikati- 
onskanal zur Bildwiedergabe, und eine mit der Netz- 
schnittstelle und dem Hochfrequenzmodulator gekoppel- 
i te Prozessorengruppe (130), wobei die Prozessorengrup- 
pe (130) uber einen Satz Programmbefehle in der Weise 
ansteuerbar ist, dafS sie das Tonempfangssignal in eine 
Sprachwiedergabe in Textform umwandelt und aufcer- 
dem die Textdarstellung gesprochener Sprache in ein 
Bildausgangssignal im Basisband umwandelt. Dabei bil- 
det das Hochfrequenz-Bildausgangssignal bei Darstel- 
lung auf einem Bildschirm (225) die visuelle Wiedergabe 
der gesprochenen Sprache. Das bevorzugte Ausfuh- 
rungsbeispiel kann des weiteren ein Teilsystem zur 
Spracherzeugung umfassen. 
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Beschreibung 

Gebiet der Erfindung 

Die vorliegende Erfindung bezieht sich ganz allgemein 5 
auf die Ton- und Bildkommunikation und insbesondere auf 
eine Vorrichtung, ein Verfahren und ein System zur visuel- 
len Wiedergabe von Sprache in der Kommunikation. 

Stand derTechnik it) 

Herkomrnliche Gerate und Verfahren zur visuellen Wie- 
dergabe gesprochener Sprache wie bei spiels weise die soge- 
nannten TDD-Systeme fur Horbehinderte bzw. Horgescha- 
digte setzen im typischen Fall sowohl spezielle Systeme als 15 
auch eine Eingabe des anzuzcigenden Materials fur die visu- 
elle Wiedergabe durch den Benutzer voraus. Beispielsweise 
wird fur Telephongesprache oder Kommunikationssitzun- 
gen fur den Horbehinderten ein spezielles TDD-System fur 
die visuelle Anzeige von Buchstaben, Wortern und Satzen 20 
vorausgesetzt, und dabei miissen alle Teilnehmer an der 
Kommunikationsverbindung ein solches speziell hierfiir 
vorgesehenes System benutzen. AuBerdem muB jeder Teil- 
nehmer bei dem Telefongesprach bei Verwendung eines 
TDD-Sys terns jeden Buchstaben, jedes Wort und jeden Satz 25 
physikalisch auf einer Tastatur eingeben, damit diese Infor- 
mationen dann zur Anzeige auf einem TDD-System am ent- 
fernt liegenden Ende iibermittelt werden. 

Bei anderen konventionellen Systemen ist auBerdem be- 
sonders ein Eingreifen von Hand erforderlich, wobei das an- 30 
zuzeigende visuelle Material separat korperlich eingegeben 
werden muB. Beispielsweise ist es bei vielen Untertiteldien- 
sten fur geschlossene Benutzergruppen, wie sie auf vielen 
Fernsehkanalen zur Verfiigung stehen, erforderlich, daB die 
horbaren gesprochenen Worter von einem Diensteanbietcr 35 
ubersetzt und zur Ubertragung als Teil der Ton-/Bildsen- 
dung oder einer anderen Fernsehsendung in das Untertitel- 
system fiir die geschlossene Benutzergruppe mittels Tastatur 
eingegeben werden. 

Diese konventionellen Systeme zur visuellen Anzeige ge- 40 
sprochener Sprache setzen im allgemeinen zweckbestimmte 
Spezialsysteme sowohl vor Ort wie auch am entfernten 
Punkt der Verbindung voraus und erfordern einen erhebli- 
chen Umfang manueller EingrifFe fiir den Betrieb. Infolge- 
dessen sind derartige Systeme relativ kostspielig und 45 
schwierig zu bedienen. AuBerdem unterliegen Systeme die- 
ser Art Beschrankungen hinsichdich ihrer Verfugbarkeit und 
Aufstellung; beispielsweise konnen diese TDD-Systeme auf 
Reisen nur mit Schwierigkeiten aufgestellt oder lokalisiert 
werden, so daB die Kommunikation mit einer horbehinder- 50 
ten Person iiber das Telefon unmoglich wird. AuBerdem 
kann der Benutzer, der auf ein derartiges System angewie- 
sen ist, nicht mit einem anderen Teilnehmer kommunizie- 
ren, dem ein spezielles System fiir diesen Zweck nicht zur 
Verfiigung steht. 55 

Dementsprechend blieb Bedarf an einem solchen Gerat, 
Verfahren und System zur visuellen Sprachanzeige, bei de- 
nen spezielle Gerate und Systeme nicht an beiden Enden der 
Kommunikationsverbindung vorhanden sein miissen. Au- 
Berdem sollten ein Gerat und ein System dieser Art keinen 60 
erheb lichen Auf wand an manueller Betatigung fur den Be- 
trieb erfordern, sie sollten vergleichsweise kostengiinstig 
und auBerdem benutzerfreundlich sein. 

Kurzbeschreibung der Zeichnung 65 

Fig. 1 zeigt ein Blockschaltbild zur Darstellung eines er- 
findungsgemaBen Gerats und Systems zur visuellen Sprach- 
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wiedergabe; 

Fig. 2 ist ein Blockschaltbild mit der Darstellung eines er- 
sten bevorzugten Ausfuhrungsbeispiels eines erfindungsge- 
maBen Gerats und Systems zur visuellen Sprach wiedergabe; 

Fig. 3 zeigt ein Blockschaltbild zur Darstellung eines 
zweiten bevorzugten Ausfuhrungsbeispiels eines erfin- 
dungsgemaBen Gerats und Systems zur visuellen Sprach- 
wiedergabe; und 

Fig. 4 ist cin Ablaufdiagramm zur Veranschaulichung ei- 
nes erfindungsgemaBen Verfahren s zur visuellen Sprach- 
wiedergabe und Spracherzeugung. 

Ausfuhrliche Beschreibung der Erfindung 

Wie vorstehend bereits angesprochen blieben verschie- 
denc Bediirfnisse fur Moglichkciten zur visuellen Sprach- 
wiedergabe, beispielsweise unter anderem in einem Textfor- 
mat oder einem Untertitelformat, als Hilfsmittel fur Horbe- 
hinderte bestehen. Die erfindungsgemaBe Vorrichtung mit 
zugehorigem Verfahren und System baut auf den verwand- 
ten und damit zusammenhangenden Anmeldungen auf und 
sorgt fur die visuelle Wiedergabe gesprochener Sprache, 
ohne daB hierfiir vor Ort und am entfernten Ende der Kom- 
munikationsverbindung hierzu spezielle Gerate und Sy- 
steme erforderlich sind. AuBerdem setzen auch die verschie- 
denen Ausfuhrungsbeispiele der Erfindung ebenfalls keiner- 
lei erhebliche Betatigungseingriffe von Hand fur den Be- 
trieb voraus und sind dabei vergleichsweise kostengiinstig 
und benutzerfreundlich. 

Die in den verschiedenen hiermit zusammenhangenden 
Anmeldungen beschriebenen Erfindungen beziehen sich so- 
wohl auf die Telefonkonferenztechnik als auch auf audiovi- 
suelle Konferenztechnik und arbeiten mit einer Vorrichtung 
fiir den Zugriff auf Video- bzw. Bildinformationen, welche 
iiber einen Kommunikationskanal mit einem Telekommuni- 
kationsnetz gekoppelt werden kann. In der zweiten und dril- 
len hiermit zusammenhangenden Anmeldung bezieht sich 
das dort bevorzugte Ausfuhrungsbeispiel auf die Vorrich- 
tung fiir den Zugriff auf Bildinformationen sowie fiir audio- 
visuelle Konferenztechnik unter Heranziehung eines soge- 
nannten CACS-Protokolls (Cable ACcess System; Kabelzu- 
gangssystem) zur Kommunikation mit einer Hauptstation 
iiber ein koaxiales Hybrid- Koaxkabel, wobei die Primarsta- 
tion ihrerseits fiir die AnschluBmbglichkeiten an ein Tele- 
kommunikationsnetz und eine Infrastruktur fiir Kabelfem- 
sehdienste sorgt. Bei der hiermit zusammenhangenden vier- 
ten und funften Anmeldung sieht die Vorrichtung fiir den 
Zugriff auf Bildinformationen sowohl Telekonferenzmog- 
lichkeiten als auch Moglichkeiten fiir Audio-A^ideo-Konfe- 
renzen mit direkten festverdrahteten AnschluBmoglichkei- 
ten an ein Telekommunikationsnetz vor, wobei eine festver- 
kabelte Netzschnittstelle eingesetzt wird, die sich beispiels- 
weise fiir den AnschluB an ein ISDN-Netz (Integrated Ser- 
vices Digital Network; digitales Netz mit integrierten Dien- 
sten) und/oder an ein PSTN-Netz (Public Switched Tele- 
phone Network; offentiiches Telefonnetz mit Wahlsystem) 
eignet. 

Bei den bevorzugten Ausfiihrungsbeispielen der hiermit 
zusammenhangenden zweiten und vierten Anmeldung ist 
die Moglichkeit fiir Videokonferenzen unter Verwendung 
ublicher oder allgemein bekannter Gerate und Vorrichtun- 
gen vorgesehen, wie sie typischerweise in Raumen oder bei 
Teilnehmem zu finden sind, z. B. Telefone, Femseher und 
Videokameras (Video- Camcorder). Bei der hiermit zusam- 
menhangenden dritten und funften Anmeldung ist eine sol- 
che Moglichkeit zur Videokonferenz unter Verwendung ei- 
nes oder mehrerer Bildtelefongerate vorgesehen. Was aller- 
dings alien diesen hiermit zusammenhangenden Anmeldun- 
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gen gemeinsam ist, ist die Verwendung einer physikalischen 
Schnittstelle (z. B, in Form eines Telefons oder einer Tasta- 
tur) fur die Auswahl und die Ansteuerung der verschiedenen 
Medieneinsatzgebiete, z, B, zur Auswahl eines normalen 
Telefonmodus oder eines Videokonferenzrnodus. Bei den 
bevorzugten Ausfuhrungsbeispielen konnen ein oder meh- 
rere Telefone zur Eingabe verschiedener Steuersignale in 
eine Benutzertonschnitts telle des Videozugriffsgerats einge- 
setzt werden, um die jcweilige Betriebsart des Gerats fiir 
den Zugriff auf Bildinformationen anzuwahlen. Bei dem be- 
vorzugten Ausfiihrungsbeispiel wird beispielsweise mit der 
Eingabe einer vorgegebenen Abfolge (z. B. "**" der 
DTMF-Tone eines Telefons) gearbeitet, um einen Video- 
konferenzmodus anzuwahlen, wobei dann, wenn diese vor- 
gegebene Abfolge nicht eingegeben wurde, automatisch ein 
Telefonbetrieb in transparcnter Weise gewahlt wird. 

Bei der hiermit zusammenhangenden sechsten Anmel- 
dung sind eine Vorrichtung und ein Verfahren zur Ansteue- 
rung mehrerer unterschiedlicher Multimedia- Anwendungen 
vorgesehen, neben Moglichkeiten fur Videokonferenzen 
und Telefonbetrieb. Bei dem bevorzugten Ausfiihrungsbei- 
spiel der Erfindung gemaB dieser sechsten Anmeldung sorgt 
die Vorrichtung zur Multimedia-Ansteuerung fur die Kon- 
trolle liber eine Vielzahl von Medienanwendungen, unter 
anderem Telefon, Videokonferenz, analoge und digitale Vi- 
deotechnik sowie Signalabgabe uber die Wechselstromlei- 
tungen (zur Ansteuerung und Uberwachung von Geraten im 
Raum oder beim Teilnehmer, z. B. Heizung, LUftung, Kli- 
maanlage, Beleuchtung, Sicherheitseinrichtungen und Un- 
terhaltungstechnik). Dariiber hinaus kann bei dem bevor- 
zugten Ausfiihrungsbeispiel der Multimediasteuerung jedes 
angeschlossene Telefon zum Telefon fur mehrere Betriebs- 
arten werden, wobei es die physikalische Schnittstelle fiir 
Telefonfunktionen und fur Multimedia-Steuerfunktionen 
bildet. 

Auf diesen hiermit zusammenhangenden Anmeldungen 
bauen die erfindungsgemaBe Vorrichtung, das Verfahren 
und das System auf und sehen eine visuelle Wiedergabe ge- 
sprochener Sprache vor, beispielsweise bei einem Sprachte- 
lefongesprach oder dem Audioteil einer audiovisuellen 
Konferenz. Die Kommunikation kann uber jedes Telekom- 
munikationsnetz oder auch jedes andere Netz ablaufen, wo- 
bei am entfernten Punkt der Verbindung kein besonderes 
oder spezielles Gerat erforderlich ist. Wie im folgenden 
noch ausfiihrlicher beschrieben ist, wird ein aus einem Netz 
ankommendes Tonsignal empfangen und in eine Darstel- 
lung in Textform umgewandelt, die dann in ein Bildsignal 
umgesetzt wird, das in jedes angeschlossene Fernsehgerat 
oder ein anderes Bildschirmgerat iibertragen wird, wo es der 
Benutzer betrachten kann, vorzugsweise im Untertitelfor- 
mat oder im Bildschirmformat. Dieses Gerat zur visuellen 
Wiedergabe gesprochener Sprache kann auch ein Teilsystem 
zur Sprachgenerierung fiir die Benutzer umfassen, die viel- 
leicht auch eine Sprachbehinderung haben. Das erfindungs- 
gemaBe Gerat zur visuellen Wiedergabe gesprochener Spra- 
che kann als Abwandlung der verschiedenen Bildzugriffsge- 
rate angesehen werden oder auch als Sonderfall bzw. spe- 
zielle Medienanwendung des Multimediasteuergerats ge- 
maB den hiermit zusammenhangenden Anmeldungen gel- 
ten. Wie im folgenden noch ausfiihrlicher beschrieben ist, 
umfaBt die Vorrichtung zur visuellen Wiedergabe gespro- 
chener Sprache viele derselben Bauelemente und Teilsy- 
steme der Bildzugriffsgerate und des Multimediasteuerge- 
rats, so daB hier hinsichtlich der entsprechenden ausfiihrli- 
chen Beschreibungen und der technischen Angaben zu den 
bevorzugten Bauelementen auf die hiermit zusammenhan- 
genden Anmeldungen verwiesen werden kann. 

Fig. 1 ist ein Blockschaltbild mit der Darstellung eines er- 



439 A 1 

4 

findungsgemaBen Gerats 101 zur visuellen Wiedergabe ge- 
sprochener Sprache und eines erfindungsgemaBen Systems 
100 zur visuellen Sprachwiedergabe. Entsprechend der Dar- 
stellung in Fig. 1 umfaBt das System 100 zur visuellen 
5 Sprachwiedergabe das Gerat 101 zur visuellen Sprachwie- 
dergabe, sowie mindestens ein Bildschirmgerat 225 und 
mindestens eine physikalische Schnittstelle 155, beispiels- 
weise in Form eines Telefons 150, einer Tastatur 160, einer 
Maus 170 oder eines Rechners 175, Das Gerat 101 zur visu- 
io ellen Sprachwiedergabe laBt sich uber eine Netzschnittstelle 
110 an einen ersten Kommunikationskanal (bzw. einem 
Netzkommunikationskanal) 103 zur Kommunikation mit ei- 
nem Netz 104 ankoppeln. Der erste bzw. Netz- Kommunika- 
tionskanal 103 wird hier auch als Netzkommunikationska- 
15 nal 03 bezeichnet, um ihn von anderen Kommunikationska- 
nalen des Systems 100 zur visuellen Sprachwiedergabe zu 
unterscheiden, z. B. vom zweiten Kommunikationskanal 
227, der zur Kommunikation mit den verschiedenen Bild- 
schirmgeraten 225 verwendet wird, oder vom dritten Kom- 
20 munikationskanal 228, der zur Kommunikation mit der Ta- 
statur 160 oder den anderen physikalischen Schnittstellen 
155 verwendet wird. Der erste Kommunikationskanal 103 
kann fest verdrahtet sein, z. B. kann er aus einem oder meh- 
reren verdrillten Drahtpaaren bestehen, oder es kann sich 
25 dabei um ein Kabel handeln, z. B. ein hybrides Glasfaser- 
Koaxkabel, auch um eine schnurlose Verbindung wie sie 
beispielsweise bei Mobiltelefonen oder fiir andere Hochfre- 
quenz-Ubertragungen verwendet wird, oder auch um jedes 
andere geeignete Kommunikationsmedium. Das Netz 104 
30 kann, wie in der hiermit zusammenhangenden vierten und 
fiinften Anmeldung beschrieben, beispielsweise ein soge- 
nanntes PSTN-Netz (offentliches Telefonnetz mit Wahlbe- 
trieb) fur den normalen Telefonverkehr und analogen Daten- 
verkehr sein (diese Einsatzgebiete werden hier als POTS be- 
35 zeichnet; Plain Old Telephone Service, einfacher alter Tele- 
fondienst) oder ein sogenanntes ISDN-Netz fiir die digitale 
Ubermittlung von Sprache und Daten, oder es kann sich da- 
bei um eine Kombination aus derartigen schon bestehenden 
oder kunftigen Telekommunikationsnetzen handeln. Bei 
40 solchen festverdrahteten Netzen wird der Netzkommunika- 
tionskanal 103 normalerweise iiber eine lokale digitale oder 
analoge (hier nicht dargestellte) Weiche an das Netz 104 an- 
gekoppelt. AuBerdem kann, wie in der hiermit zusammen- 
hangenden zweiten und dritten Anmeldung beschrieben, der 
45 Netzkommunikationskanal 103 bei Realisierung eines 
CACS-Kommunikationsprotokolls iiber eine Primarstation 
an das Netz 104 angekoppelt werden, die unter anderem 
mindestens eine Netzschnittstelle bietet, die mit anderen 
oder zusatzlichen Protokollen - z. B, den verschiedenen 
50 ISDN-Protokollen - arbeitet und auBerdem fur den An- 
schluB an eine Infrastruktur fur Kabelfernsehdienste 
(CATV-Dienste) sorgt. 

Das in Fig. 1 dargestellte Gerat 101 zur visuellen Sprach- 
wiedergabe weist verschiedene Merkmale oder Bauele- 
55 mente auf, die in den hiermit zusammenhangenden Anmel- 
dungen ausfuhrlich beschrieben werden, unter anderem die 
Netzschnittstelle 110, die Prozessorengruppe 130 (wobei 
verstanden wird, daB eine Prozessorengruppe auch nur einen 
Prozessor aufweisen kann) und die Benutzerschnittstelle 
60 120. In den zugehorigen Anmeldungen sind auBerdem de- 
taillierte Blockschaltbilder und technische Angaben zu den 
bevorzugten Bauelementen enthalten. Je nach der jeweili- 
gen Realisierungsforrn des Systems 100 zur visuellen 
Sprachwiedergabe, z. B. in festverdrahteter, verkabelter 
65 oder schnurloser Form, ist die Netzschnittstelle 110 des Ge- 
rats 101 zur visuellen Sprachwiedergabe unterschiedlich 
aufgebaut. Bei Kabeltechnik ist beispielsweise die Netz- 
schnittstelle 110 eine Kabelnetzschnittstelle mit einem 
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CATV-Sende-Empfanger und einer ASIC-Schaltung flir 
Kommunikationszwecke (anwendungsspezifische inte- 
grierte Schaltung), die verschiedene Funktionen erfuUt wie 
zum Beispiel jeweils die Hochfrequenzmodulation (HP- 
Modulation) und -Demodulation und die Kodierung und 5 
Dekodierung nach dem CACS-Protokoll, wie in der zugeho- 
rigen zweiten und dritten Anmeldung beschrieben ist. Bei 
schnurlosen Einsatzgebieten, z. B. gemaB der Beschreibung 
in der zugehorigen vierten und funften Anmeldung, umfaBt 
die Netzschnittstelle 110 eine Telefonschnittstelle (POTS- 10 
Schnittstelle fur den traditionellen Telefonverkehr) und/oder 
eine ISDN-Schnittstelle, die jeweils verschiedene Funktio- 
nen hat, z. B. jeweils die analoge Telefontechnik (und 
ebenso analoge Modemfunktionen, z. B. nach den ITU-Pro- 
tokollen (International Telecommunications Union) V.34 15 
und V.34 2 ), neben der Realisierung vcrschicdcner digitaler 
(ISDN-) Protokolle fur Sprach- und Datenubermittlung 
(z, B. Protokolle zur digitalisierten Datenverbindung nach 
ITU Q.921 LAPD und fur physikalische Layers (Interface- 
Protokolle) nach Q.910). GemaB den zugehorigen Anmel- 20 
dungen wird die Netzschnittstelle 110 zur Ubertragung und 
zum Empfang analoger oder digitaler Bild-, Ton- und ande- 
rer Informationen und Daten (die ganz allgemein hier als 
Daten bezeichnet werden) in jedem gegebenen Format, mit 
jedem Protokoll oder nach jedem Modulationsschema ein- 25 
gesetzt, die mit dem Netz 104 kompatibel sind, wobei auch 
jede beliebige Form des Netzanschlusses oder der Schaltun- 
gen Verwendung findet. Wenn beispielsweise iiber den er- 
sten Kommunikationskanal 103 der AnschluB an ein digita- 
les Netz (z. B. ISDN- Netz) vorgesehen ist, ubermittelt und 30 
empfangt die Netzschnittstelle 110 Daten in Form eines 
Tonsignals fur den Telefonverkehr, oder als gemaB der 
ISDN-Protokollserie (z. B. Serie Q.x) kodierte und forma- 
tierte digitale Information. Bei AnschluB an ein herkommli- 
ches bzw. PSTN- Netz iiber den ersten Netzkommunikati- 35 
onskanal 103 ubermittelt und empfangt die Netzschnittstelle 
110 beispielsweise auch Daten wie Tonsignale, z. B. ein nor- 
males analoges Tonsignal in POTS-Technik. 

Aus Fig. 1 ist weiterhin ersichtlich, daB an die Netz- 
schnittstelle 110, an eine Benutzerschnittstelle 120 und an 40 
einen Hochfrequenz- bzw. HF-Modulator 270 eine Prozes- 
sorengruppe 130 angeschlossen ist. Die Netzschnittstelle 
110, die Benutzerschnittstelle 120 und der HF-Modulator 
270 sind im wesentlichen identisch mit den Gruppen ausge- 
legt, wie sie in den zugehorigen Anmeldungen beschrieben 45 
und ausfiihrlich dargestellt sind. Verschiedene Funktionen 
jeder dieser Systemkomponenten werden nachstehend au- 
Berdem noch ausfuhrlicher erlautert. Bei dem in Fig. 1 dar- 
gestellten Ausfuhrungsbeispiel weist die Vorrichtung 101 
zur visuellen Sprachwiedergabe beispielsweise zunachst 50 
eine Netzschnittstelle 110 auf, die sich zum Empfangen ei- 
nes ersten Tonsignals von einem Netz 104 an einen ersten 
Kommunikationskanal 103 ankoppeln laBt woraufhin sie 
aus diesem Signal ein Tonempfangssignal bildet; zum ande- 
ren weist sie einen Hochfrequenzmodulator 270 auf, der ein 55 
Bildausgangssignal (aus der Prozessorengruppe 130) im Ba- 
sisband in ein Hochfrequenz-Bildausgangssignal umwan- 
delt und das Hochfrequenz-Bildausgangssignal zu einem 
zweiten Kommunikationskanal 227 zur Videodarstellung 
ubertragt, z. B. iiber eines der Bildschirmgerate 225; und 60 
zum dritten umfaBt sie eine Prozessorengruppe 130, die an 
die Netzschnittstelle 110 und den Hochfrequenzmodulator 
270 angekoppelt ist und iiber einen Satz Programmbefehle 
in nachstehend noch erlauterter Weise so angesteuert wird, 
daB sie das empfangene Tonsignal in eine Textdarstellung 65 
der gesprochenen Sprache umsetzt und auBerdem die Text- 
darstellung der Sprache in ein Bildausgangssignal im Basis- 
band umwandelt (das dann vom HF-Modulator 270 noch 
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moduliert und dann ubertragen werden muB). Im folgenden 
wird auBerdem noch erlautert, daB die Vorrichtung zur visu- 
ellen Sprachwiedergabe vorzugsweise die Benutzerschnitt- 
stelle 120 zur Eingabe von Steuersignalen umfaBt, die zur 
Ansteuerung verschiedener Betriebsarten - z. B, normaler 
Telefonbetrieb oder Modus mit visueller Sprachwiedergabe 
- verwendet werden. 

Die Benutzerschnittstelle 120 dient zum Empfangen eines 
Steucrsignals von aus einer Viclzahl von Steuersignalen, 
z. B. in Form einer Anforderung fiir ein Telefongesprach, ei- 
ner Anforderung fiir die visuelle Darstellung der gesproche- 
nen Sprache wahrend eines Telefongesprachs, oder ein An- 
ruf in einer Audio- /Video- Konferenz, einer Anforderung 
von Sprachgenerierung aus einem eingegebenen Text, und 
weitere Steuersignale wie zum Beispiel Meldesignale zur 
Ankiindigung eines ankommcnden Anrufs oder von Anru- 
fen bei einer audiovisuellen Konferenz, Bei dem bevorzug- 
ten Ausfuhrungsbeispiel ist die Benutzerschnittstelle 120 in 
Form einer Ben utzer-Tonschnitts telle 255 ausgefuhrt, wie 
sie in Fig. 2 und 3 und ausfiihrlich in den hiermit zusam- 
menhangenden Anmeldungen dargestellt ist. Der HF-Modu- 
lator 270 setzt ein Bildausgangssignal in ein Hochfrequenz- 
Bildausgangssignal um, wie in den zugehorigen Anmeldun- 
gen beschrieben und dargestellt, und ubertragt dieses zum 
zweiten Kommunikationskanal 227 und bringt es zur An- 
zeige auf den Bildschirmgeraten 225. Bei dem bevorzugten 
Ausfuhrungsbeispiel handelt es sich bei dem zweiten Kom- 
munikationskanal 227 um ein Koaxkabel, wie es fiir Kabel- 
fernsehen vorgesehen ist und im Raum beim Benutzer bzw. 
Teilnehmer an einer oder mehreren Stellen verlegt ist. 

Die Prozessorengruppe 130 sorgt fur die Umsetzung des 
empfangenen Tonsignals (aus der Netzschnittstelle 110) in 
eine visuelle Darstellung der gesprochenen Sprache bzw. in 
deren Darstellung in Textform, die ihrerseits dann in die 
Form des Bildausgangssignals im Basisband umgesctzt wird 
(das vom HF-Modulator 270 noch moduliert und an die 
Bildschirmgerate 225 ubertragen werden muB. Die Prozes- 
sorengruppe 130 kann auch fur die Sprachgenerierung aus 
einem eingegebenen Text sorgen (wobei die Sprachsignale 
dann iiber die Netzschnittstelle 110 an das Netz 104 uber- 
mittelt werden sollen). Wie in den zugehorigen Anmeldun- 
gen dargestellt und nachstehend noch ausfuhrlicher erlautert 
wird, kann die Prozessorengruppe 130 aus einer einzigen in- 
tegrierten Schaltung ("IC") bestehen oder eine Vielzahl inte- 
grierter Schaltungen bzw. anderer Bauelemente aufweisen, 
die miteinander verbunden bzw. zu Gruppen zusammenge- 
faBt sind, z. B. Mikroprozessoren, digitale Signalprozesso- 
ren, ASIC-Schaltungen, zugehorige Speicher (z. B. RAM- 
und ROM- Speicher) und weitere ICs und Baugruppen. In- 
folgedessen ist der hier verwendete Begriff "Prozessoren- 
gruppe" als gleichbedeutend mit einem einzelnen Prozessor 
oder mit einer Anordnung von Prozessoren, Mikroprozesso- 
ren, Steuerungen oder irgendwelchen anderen Gruppierun- 
gen integrierter Schaltungen zu verstehen, welche die nach- 
stehend noch naher beschriebenen Funktionen ausfiihren. 
Bei dem bevorzugten Ausfuhrungsbeispiel ist zum Beispiel 
die Prozessorengruppe 130 gemaB Darstellung in Fig. 2 und 
3 als Mikroprozessor-Teilsystem 260 ausgefuhrt (wie sie 
auch in den zugehorigen Anmeldungen dargestellt wird), 
neben einem Teilsystem zur visuellen Sprachwiedergabe 
(300 bzw. 310) und kann auBerdem ein Teilsystem zur 
Sprachgenerierung (320) umfassen. 

Aus Fig. 1 ist weiterhin zu entnehmen, daB das Gerat 101 
zur visuellen Sprachwiedergabe iiber die Benutzerschnitt- 
stelle 120 an mindestens eine physikalische Schnittstelle 
155 gekoppelt ist, damit der Benutzer zur Eingabe eines 
oder mehrerer Steuersignale und auch fiir die Eingabe von 
Text zur Sprachgenerierung physikalischen Zugang zu der 
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Vorrichtung zur visuellen Sprachwiedergabe hat. Die physi- 
kalischen Schnittstellen 155 umfassen im typischen Fall 
mindestens ein Telefon 150, eine Tastatur 160, eine Compu- 
termaus 170 oder einen Rechner 175. Die Telefone 150 kon- 
nen auch als Bildtelefon ausgefiihrt sein. Sind Telefone 150 
in das System geschaltet, so erfolgt die physikalische Ein- 
gabe der Vielzahl von Steuersignalen uber eine Telefonta- 
statur in Form eines DTMF-Signals (Zweiton-Mehrfre- 
quenzsignal) oder Impulswahlsignals, wobei fur den norma- 
len Eingang und Ausgang der Tonsignale eine Sprechmu- 
schel und ein Horerteil bei den verschiedenen Telefonen 150 
(bzw. Bildtelefonen) vorgesehen sind. Zusatzlich zu den Te- 
lefonen 150, oder auch anstelle derselben, kbnnen auch die 
Tastatur 160, die Maus 170, und/oder der Rechner 175 zur 
Eingabe der Vielzahl von Steuersignalen eingesetzt werden. 
Die Tastatur 160 bzw. der Rechner 175 dienen vorzugsweise 
fiir die Eingabe eines Textes fur die Sprachgenerierung uber 
den dritten Kommunikationskanal 228 (auch wenn andere 
Eingabeverfahren wie beispielsweise das DTMF-Wahlver- 
fahren ebenfalls herangezogen werden kbnnten). Der dritte 
Kommunikationskanal 228 wird hier als Kanal mit direkter 
Verbindung zwischen den physikalischen Schnittstellen 155 
und der Prozessorengruppe 130 dargestellt, auch wenn an- 
dere Moglichkeiten der Verbindung zur Verfugung stehen; 
beispielsweise kann der dritte Kommunikationskanal 228 
auch vollig entf alien (Fig. 2), wobei dann die Eingabe der 
Steuersignale uber eine Verbindung (z. B. Leitung 294 in 
Fig. 2) mit der Benutzerschnittstelle 120 oder eine Benut- 
zer-Tonschnittstelle 25 (statt mit der Prozessorengruppe 
130) erfolgt. 

Fig. 1 zeigt weiterhin, daB der HF-Modulator 270 ein 
Bildausgangssignal im Basisband von der Prozessoren- 
gruppe 130 - z. B. in Form eines kombinierten NTSC/PAL- 
Videosignals - in ein Hochfrequenz-Bildausgangssignal 
umsetzt, z. B. ein amplitudenmoduliertes Restseitenband- 
HF-Signal, das uber ein Bildschirmgerat225 betrachtet wer- 
den kann, oder, wie Fig. 2 und 3 dies zeigen, beispielsweise 
uber ein Fernsehgerat 240 des Benutzers, wenn dieser auf 
Kanal 3 oder 4 eingestellt wird. Der HF-Modulator 270 
kann auf vielerlei Weise realisiert werden, unter anderem 
unter Verwendung eines Bildmodulators, z. B. Motorola 
MCI 3 73, an den sich eine Verstarkungsstufe anschlieBt, die 
bei dem bevorzugten Ausfiihrungsbeispiel dazu eingesetzt 
wird, Verluste aus einem Richtkoppler 290 (in Fig. 2 darge- 
stellt) auszugleichen, die gegebenenfalls das HF-Bildaus- 
gangssignal in den zweiten Kommunikationskanal 227 ein- 
speisen, z. B. in das Koaxkabelsystem in den Raumen des 
Benutzers, 

Wie nachstehend noch ausfuhrlicher erlautert wird, laBt 
sich die erflndungsgemaBe Verfahrensweise in Form eines 
Satzes Programmbefehle zur anschlieBenden Ausfuhrung in 
der Prozessorengruppe 130 und dem zugehorigen Speicher 
und anderen aquivalenten Bauelementen programmieren 
und abspeichern. Der Satz Programmbefehle kann auch in 
jeder Speichereinrichtung abgelegt werden, z. B. in Form ei- 
nes Speicherbausteins in Form einer integrierten Schaltung, 
einer Diskette, einer CD-ROM oder in Form jedes anderen 
lesbaren oder abarbeitbaren Mediums. Bei dem bevorzugten 
Ausfiihrungsbeispiel wird die Prozessorengruppe 130 in 
Verbindung mit einem abgespeicherten Satz Programman- 
weisungen und im Ansprechen auf alle vom Benutzer einge- 
gebenen oder aus dem Netz 104 empfangenen Steuersignale 
fiir viele verschiedene Funktionen eingesetzt werden. Infol- 
gedessen weist das bevorzugte Ausfiihrungsbeispiel der 
Prozessorengruppe 130 eine Vielzahl von Betriebsarten auf, 
z. B. Betriebsarten zur visuellen Sprachwiedergabe, fur nor- 
malen Telefonbetrieb (POTS-Betrieb), fiir die Ubermittlung 
synthetisierter Sprache und auch bei Audio- und Video- 



Konferenzen (bei einem bevorzugten Ausfuhrungsbeispiel). 

Das Blockschaltbild in Fig. 2 zeigt ein erstes bevorzugtes 
Ausfuhrungsbeispiel einer Vorrichtung 201 zur visuellen 
Sprachwiedergabe sowie ein erstes bevorzugtes Ausfuh- 
5 rungsbeispiel eines Systems 200 zur visuellen Sprachwie- 
dergabe, beide gemaB der vorliegenden Erfindung. Das Sy- 
stem 200 zur visuellen Sprachwiedergabe 200 umfaBt ein 
Gerat 201 zur visuellen Sprachwiedergabe 201, mindestens 
ein Telefon 150 (in Form der physikalischen Schnittstellen 

to 155) und mindestens ein Fernsehgerat 240 (als eine Art des 
Bildschirmgerats 225), die uber den zweiten Kommunikati- 
onskanal 227 mit der Vorrichtung 201 zur visuellen Sprach- 
wiedergabe gekoppelt sind. Uber die vorstehend angespro- 
chene Netzschnittstelle 110 laBt sich die Vorrichtung 201 zur 

15 visuellen Sprachwiedergabe auch an ein (hier nicht darge- 
stelltes) Netz 104 ankoppeln. Die Vorrichtung 201 zur visu- 
ellen Sprachwiedergabe umfaBt auBerdem einen HF-Modu- 
lator 270, der mit einem Richtkoppler 290 gekoppelt ist, der 
in vorstehend erlauterter Weise das HF-Bildausgangssignal 

20 vom HF-Modulator 270 in den zweiten Kommunikationska- 
nal 227 ubertragt, beispielsweise in Form einer in den Rau- 
men des Benutzers verlegten Koaxkabelanlage. 

Wie in den hierzu gehorigen Anmeldungen im einzelnen 
erlautert ist, wird die Benutzertonschnittstelle 255 in der 

25 Weise ausgelegt, daB sie den Ubergang zu iiblichen Haus- 
haltstelefonapparaten bildet, worunter auch schnurlose Ap- 
parate und Freisprechgerate wie die Telefone 150 fallen. Die 
Benutzertonschnittstelle 255 soil sowohl fiir bisher ubliche 
Gesprache in POTS-Technik als auch fiir Bildtelefonie ge- 

30 eignet sein und in Verbindung mit der Netzschnittstelle 110 
auch analoge Modemfunktionen unterstiitzen. Daruber hin- 
aus sorgt die Benutzertonschnittstelle in Verbindung mit ei- 
ner der physikalischen Schnittstellen 155 - beispielsweise 
dem Telefon 150 (bzw. der Tastatur 160, der Maus 170 oder 

35 dem Rechner 175, die in Fig. 1 dargestellt sind) - fur die 
Eingabe der verschiedenen Steuersignale, wie sie beispiels- 
weise zur Anwahl einer Anwendung mit visueller Sprach- 
wiedergabe oder zur Telefonanwahl oder Bildtelefonanwahl 
verwendet werden. Bei dem bevorzugten Ausfiihrungsbei- 

40 spiel wird jedes der Telefone 150 zur Eingabe der verschie- 
denen Steuersignale verwendet, und Anrufe in normaler 
POTS-Technik werden in "transparenter" Form verarbeitet, 
was bedeutet, daB ausgehende und ankommende Telefon an- 
rufe so ablaufen, als ob die Funktionen zur visuellen Sprach- 

45 wiedergabe, fiir Videokonferenz oder andere Multimedia- 
funktionen nicht vorhanden waren. Daruber hinaus werden 
bei dem bevorzugten Ausfuhrungsbeispiel die Funktionen 
mit visueller Sprachwiedergabe, mit Bildtelefonanrufen und 
Multimediafunktionen als Ausnahmefalle bearbeitet, wobei 

50 der Benutzer eine jeweilige spezielle bzw. vorgegebene 
Wahlfolge eingeben muB, um die visuelle Sprachwieder- 
gabe, einen Bildtelefonanruf oder eine andere Medienfunk- 
tion anzusteuern. Die bei dem bevorzugten Ausfiihrungsbei- 
spiel verwendeten verschiedenen Telefone 150 kbnnen in je- 

55 der Art normaler Telefone ausgefiihrt sein, einschlieBlich 
schnurloser (tragbarer) Telefone, der iiblichen Telefone mit 
SchnuranschluB, DTMF- oder Impulswahltelefone, Bildte- 
lefone oder Freisprechtelefone. 

Wie auch in den zugehorigen Anmeldungen beschrieben, 

60 weist die Benutzertonschnittstelle 255 vorzugsweise eine 
SLIC- Schaltung auf (Subscriber Loop Interface Circuit; 
Teilnehmer-Schleifenschnittstellenschaltung), die soge- 
nannte "BORSHT" -Funktionen fiir Telefondienste inner- 
halb der Raume des Benutzers bietet, sowie eine Ringbil- 

65 dungsschaltung; einen TonkodiererAdekodierer fiir den Au- 
dioanteil eines Bildtelefongesprachs oder normalen Tele- 
fongesprachs, wobei dieses Teil fiir die Analog-Digital-Um- 
setzungen zur Digitalisierung eines Sprach- bzw. Tonein- 



DE 197 50 

9 

gangssignals aus dem Sprechmuschelteil eines oder mehre- 
rer der Telefone 150 und die Digital- Analog-Umsetzung fur 
die Stimmenwiedergabe aus den Datenstrom bzw. Signal ei- 
nes digitalisierten Sprachausgangssignals sorgt (urn ein 
Tonausgangssignal daraus zu bilden, das dem Sprechteil der 5 
Telefone 150 zugeleitet wird); und schlieBlich einen pro- 
gramrnierbaren digitalen Signalprozessor (DSP) mit zuge- 
horigem Speicher (der als DSP zur Stimmverarbeitung in 
den zugehorigen Anmeldungen bezeichnet wird, im Unter- 
schied zu einem anderen DSP-Element, das als DSP-Teil zur 10 
Bildverarbeitung bezeichnet wird). Das DSP-Element in der 
Benutzertonschnittstelle 255 enthalt einen Programmspei- 
cher und einen Datenspeicher zur Ausfuhrung von Funktio- 
nen zur Signalverarbeitung, beispielsweise die Erfassung 
von DTMF/Wahlimpulswahl und Impulserzeugung, fur 15 
analogc Modemfunktionen, zur Bildung von Rufablaufto- 
nen (Wahlton, Belegttonzeichen), fiir die PCM-Linear-Um- 
setzung und die Linear-PCM-Umsetzung (Impulskodemo- 
dulation) und die Abspielung der Sprechaufforderung. Der 
dem DSP-zugeordnete Speicher weist bei dem bevorzugten 20 
Ausfuhrungsbeispiel einen Festspeicher (als Sprach-ROM- 
Speicher bezeichnet) hoher Dichte mit PCM-kodierten 
(bzw. komprimierten) Sprachsegmenten auf , die zur Interak- 
tion mit dem Benutzer verwendet werden, z. B. zur Auffor- 
derung des Benutzers zur Eingabe des DTMF- oder Impuls- 25 
wahlverfahrens uber die Tastatur, wenn die Verbindung uber 
die Bildtelefoniefunktion oder eine in einem anderen Multi- 
mediamodus hergestellt werden soil. Daneben kann bei Be- 
darf ein Sprach-RAM-Speicher fur Speicherfunktionen zur 
Sprachspeicherung durch den Benutzer verwendet werden, 30 
sowie ein elektrisch veranderbarer programmierbarer lei- 
stungsloser (schnell loschbarer) Speicher zur Abspeiche- 
rung von Programmen (und Prograrnmerweiterungen) oder 
Algorithmen. 

Die Prozessorengruppe 130 (gemaB Fig. 1) ist bei dem 35 
Gerat 201 zur visuellen Sprachwiedergabe in Form eines 
Mikroprozessor-Teilsy stems 260 und eines Teilsy stems 
(bzw. Prozessors) 305 zur visuellen Sprachwiedergabe aus- 
gefuhrt, der in Fig. 2 dargestellt ist. Wie ausfiihrlich in den 
hierzu gehorigen Anmeldungen dargestellt, besteht das Mi- 40 
kroprozessor-Teilsystem 260 aus einem Mikroprozessor 
oder einer anderen Verarbeitungseinheit, beispielsweise in 
Form des Motorola-Bauteils MC68LC302, und einem Spei- 
cher, der einen Direktzugriffsspeicher (RAM) und einen 
Festwertspeicher (ROM) und bei dem bevorzugten Ausfiih- 45 
rungsbeispiel auch einen sogenannten programmierbaren 
Flash-Speicher (z. B. Flash-EPROM bzw. E 2 PROM) um- 
faBt, wobei die Kommunikations verbindung iiber die Bus- 
leitung 261 mit der Netzschnittstelle 110, der Benutzerton- 
schnittstelle 255 und uber die Busleitung 263 mit dem Teil- 50 
system 305 zur visuellen Sprachwiedergabe hergestellt 
wird. Fur den Festwertspeicher wird ebenfalls ein program- 
mierbarer Flash-Speicher verwendet, so daB der Speicherin- 
halt aus dem Netz 104 heruntergeladen werden kann. Infol- 
gedessen konnen verschiedene Versionen der Betriebssoft- 55 
ware (Programmbefehle) wie z. B. Programmverbesserun- 
gen realisiert werden, ohne daB an dem Gerat 201 zur visu- 
ellen Sprachwiedergabe Veranderungen vorgenommen wer- 
den mussen und ohne daB der Benutzer eingreifen muB. Das 
Mikroprozessor-Teilsy stem 260 sorgt fur die Steuerung und 60 
Konfigurierung des Prozessors 305 zur visuellen Sprachwie- 
dergabe, fiir die Verarbeitung normaler Telefongesprache, 
von Telefongesprachen in Digitaltechnik und wird auBer- 
dem zur Irnplementierung eines ISDN-Stapels oder eines 
anderen Protokollstapels eingesetzt, wenn dies fiir analoge 65 
oder digitale Bildtelefonieverbindungen erforderlich ist, 
z. B. bei Meidungsubermittiung mit ITU Q.931-Protokoll. 

Das Teilsystem 305 zur visuellen Sprachwiedergabe, das 
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auch als Prozessor zur visuellen Sprachwiedergabe bezeich- 
net wird, kann auBerdem aus einem Mikroprozessor bzw. ei- 
ner anderen Verarbeitungseinheit wie beispielsweise dem 
Motorola-Baustein MC68LC302 und aus einem Speicher 
bestehen, der bei dem bevorzugten Ausfuhrungsbeispiel ei- 
nen RAM- und einen ROM-Speicher und auBerdem einen 
programmierbaren Flash-Speicher (z. B, Flash-EPROM 
bzw. E 2 PROM) umfaBt. Wie Fig. 2 zeigt, gehoren zu dem 
Teilsystem 305 zur visuellen Sprachwiedergabe auch zwei 
Funktionsblocke, und zwar ein Teilsystem (bzw. Prozessor) 
307 zur Spracherkennung und ein Teilsystem (bzw. Prozes- 
sor) 309 zur Bildschirmdarstellung. 

Je nach Art der Netzschnittstelle 110 und dem zugehori- 
gen bzw. entsprechenden Netz 104 konnen die aus dem Netz 
104 ankommenden Sprachsignale verschiedene Formate 
aufweisen. Beispielsweise werden bei AnschluB an das 
PSTN- Netz die ankommenden Sprachsignale in Form ana- 
loger Signale von der Netzschnittstelle 110 empfangen und 
vorzugsweise in ein digitales Format umgewandelt, z. B, in 
ein impulskodemoduliertes (PCM) digitales Sprachsignal. 
Bei AnschluB an ein Kabelnetz werden die ankommenden 
Sprachsignale von der Netzschnittstelle 110 als CACS-Si- 
gnale oder als Signale nach einem anderen Empfangsproto- 
koll empfangen, die dann zur Bildung eines digital kodierten 
Sprachsignals, z. B. eines PCM-kodierten Sprachsignals, 
demoduliert werden konnen. Sind die Sprachsignale Teil ei- 
ner Audio-/Video-Konferenz, so trennt das Mikroprozessor- 
Teilsystem 260 das digitale Sprachsignal vom Bildsignalan- 
teil zur separaten Verarbeitung (wie nachstehend anhand 
von Fig. 3 erlautert wird). Das digitale Sprachsignal wird 
dann zum Teilsystem 307 zur Spracherkennung ubermittelt. 
Bei dem bevorzugten Ausfuhrungsbeispiel ist das Teilsy- 
stem 307 zur Spracherkennung mit einer Spracherkennungs- 
Software programmiert, die eine Eigenentwicklung oder 
auch eine im Handel erhaltlichc Software sein kann, z. B. 
das Softwaresystem zur Spracherkennung von IBM oder 
Lexicus (einer Tochtergesellschaft von Motorola, Inc.). Bei 
dem bevorzugten Ausfuhrungsbeispiel kann das Spracher- 
kennungs-Teilsystem 307 im Laufe der Zeit trainiert wer- 
den, um so die Prazision bei der Spracherkennung bei haufi- 
gen Anrufern zu erhohen. Das Teilsystem 307 zur Spracher- 
kennung generiert aus dem digitalen Sprachsignal eine Text- 
darstellung der gesprochenen Sprache, die unterschiedlich 
formatiert sein kann, d. h. in Form eines Textes im ASCII- 
Format oder eines Textes in einer anderen entsprechend ko- 
dierten bzw. formatierten Form. Die Textdarstellung der ge- 
sprochenen Sprache wird dann zum Teilsystem 309 zur 
Bildschirmdarstellung ubertragen, das ebenfalls mit einer 
handelstiblichen oder speziell entwickelten Software pro- 
grammiert ist. Das Teilsystem 309 zur Bildschirmdarstel- 
lung kann auch unter Verwendung einer separaten integrier- 
ten Schaltung, z. B, OSD PCA855D von Philips, realisiert 
werden. Das Teilsystem 309 zur Bildschirmdarstellung setzt 
die Textdarstellung der gesprochenen Sprache in ein Format 
zur Bildschirmdarstellung um, das dann als Bildausgangssi- 
gnal im Basisband an den HF-Modulator 270 ausgegeben 
wird. Es konnen auch andere Bildformate herangezogen 
werden, z. B. das nachstehend anhand von Fig. 3 erlauterte 
Untertitelformat. Der HF-Modulator setzt das Bildaus- 
gangssignal im Basisband in ein Hochfrequenz-Bildaus- 
gangssignal um, das dann beispielsweise auf Kanal 3 oder 4 
iiber den zweiten Kommunikationskanal 227 zur Anzeige 
auf den verschiedenen Fernsehgeraten 240 ubertragen wird. 
Infolgedessen setzt das Gerat 201 zur visuellen Sprachwie- 
dergabe das empfangene Tonsignal - z. B. in Form eines aus 
einem Netz kommenden Sprachsignals - in ein Hochfre- 
quenz-Bildausgangssignal um, das dann zu einem oder 
mehreren Bildschirmgeraten (z. B. zum Fernsehgerat 240) 
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zur visuellen Anzeige des gesprochenen Textes ubertragen 
wird. 

Wie vorstehend und auch in den hierzu gehorigen Anmel- 
dungen dargestellt, leitet der Benutzer bei dem bevorzugten 
Ausfuhrungsbeispiel einen Multimedia- Modus- z. B. die vi- 5 
suelle Darstellung des Sprachmodus oder eines Videokonfe- 
renzmodus - dadurch ein, daB er im Un terse hied zum nor- 
malen bzw. gewbhnlichen Telefonbetrieb eine spezielle vor- 
gegebene Folge eintippt, die von dem DSP-Element in der 
Benutzertonschnittstelle 255 als Folge fur einen Muitime- 10 
dia-Modus erkannt wird. Alternativ kann eine Vielzahl von 
Signalfolgen fur einen Multimediamodus verwendet wer- 
den, wobei jede vorgegebene Folge speziell fur einen ge- 
wahlten Multimediamodus gilt, z. B. Videomodus oder Be- 
triebsart mit visueller Sprachwiedergabe. Diese Methodik 15 
wird auch im folgendcn anhand des Ablaufdiagramms in 
Fig. 4 noch erlautert. Fiir einen Multimedia- Modus sind bei 
dem bevorzugten Ausfuhrungsbeispiel die ersten beiden 
Ziffern der spezifischen vorgegebenen Folge beispielsweise 
nur fur diese Anwendung reserviert und werden bei einem 20 
iiblichen Anruf in POTS-Technik nicht verwendet, z. B. 
"**"; infolgedessen konnen sie speziell dem DSP- Element 
mitteilen, daB statt eines normalen Telefonbetriebsmodus 
nun in einen Multimedia-Modus umgeschaltet werden soil. 
Alternativ konnte der Benutzer auch andere spezifische vor- 25 
gegebene Folgen als Kennung fiir einen Multimedia-Modus 
einprogrammieren. Die verschiedenen Medien-Betriebsar- 
ten konnten lokal iiber eine der physikalischen Schnittstel- 
len 155 oder aus der Entfernung liber einen AnschluB iiber 
das Netz 104 und die Netzschnittstelle eingegeben werden. 30 
Unmittelbar nach Dekodierung der beiden speziellen Ziffern 
oder einer anderen spezifischen vorgegebenen Folge als 
Hinweis auf einen Multimedia-Modus leitet das Gerat 201 
zur visuellen Sprachwiedergabe den Ablauf zur Ansteue- 
rung der visuellen Sprachwiedergabe (bzw. der Multimedia- 35 
Anwendung) ein, beispielsweise dadurch, daB das DSP-Ele- 
ment eine Abfolge zur Aufforderung in gesprochener Spra- 
che oder per Videodarstellung generiert, abspielt oder an- 
zeigt, z. B. "Bitte wahlen Sie eine Anrufoption oder driicken 
Sie Taste "#" zur Hilfestellung", die im ROM-Teil des Spei- 40 
chers in der Benutzertonschnittstelle 255 abgespeichert ist. 
Was das DSP-Element unternimmt erfolgt dann im Anspre- 
chen auf die eingegebene Folge oder auf den Tastendruck 
des Benutzers nach der ersten Aufforderung und hangt da- 
von ab. Wird beispielsweise die Taste "#" gedriickt, kann der 45 
Benutzer ein Befehlsmenu sehen oder horen, zum Beispiel 
in dieser Form: 

- "zur Eingabe der visuellen Darstellung gesprochener 
Sprache - 1 driicken" 50 

- "zur Eingabe des Videokonferenz-Modus - 2 driik- 
ken" 

- "zur Eingabe der Automatisierung im Haus - 3 driik- 
ken" 

- "zur Eingabe gesprochener Nachrichten - 4 driik- 55 
ken" 

- "zum nochmaligen Abspielen dieses Menus - # 
driicken" 

Nach Auswahl des besonderen oder speziellen Medien- 60 
Modus durch den Benutzer, z. B. Bilddarstellung gespro- 
chener Sprache, generieren das Gerat 201 bzw. das System 
200 zur visuellen Sprachwiedergabe ein Untermenu mit Be- 
fehlen oder bringen dies auf den Bildschirm. Hat beispiels- 
weise der Benutzer eine Betriebsart mit visueller Anzeige 65 
gesprochener Sprache gewahlt, kann er ein Untermenu mit 
Befehlen sehen oder hbren, wie zum Beispiel das folgende: 
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- "fiir Anruf iiber Rufnummernverzeichnis - * driik- 
ken" 

- "fur Aktualisierung des Rufnummernverzeichnisses 

- 2 driicken" 

- "fur manuellen Bildtelefonanruf- 3 driicken" 

- "fiir Zuschaltung der Sprachgenerierung - 4 driik- 
ken" 

- "zum nochmaligen Abspielen dieses Mentis - # 
driicken". 

Einer der Vorteile des Rufnummernverzeichnisses des 
Benutzers besteht bei dem bevorzugten Ausfuhrungsbei- 
spiel darin, daB durch die Vorauswahl des anzurufenden 
Teilnehmers dem Teilsystem 307 fiir die Spracherkennung 
rnitgeteilt werden kann, daB ein Teilnehmer angerufen wer- 
den soil, den es bcreits "gelcrnt" hat, also ein Teilnehmer, 
mit dem das Teilsystem 307 zur Spracherkennung bereits 
ein gewisses Training absolviert hat. Infolgedessen kann das 
Teilsystem 307 zur Spracherkennung im wesentlichen noch 
feiner abgestimmt werden, um die Sprechweise einer be- 
stimmten Person zu erkennen, wodurch die Prazision bei der 
visuellen Darstellung der horbaren Sprache noch verbessert 
wird. AuBerdem kann der Benutzer auch durch Eingabe die- 
ser unterschiedlichen Steuersignale bei ankommenden Ge- 
sprachen dem Teilsystem 307 zur Spracherkennung einen 
Hinweis darauf iibermitteln, daB ein bestimmter Teilnehmer 
angerufen hat, und zwar wiederum zur Aktivierung dieser 
Feinabstimmung des Teilsystems 307 zur Spracherkennung 
auf ein zuvor im Zusammenhang mit dem anrufenden ande- 
ren Teilnehmer erlerntes Muster. 

Damit wird bei dem bevorzugten Ausfuhrungsbeispiel 
eine automatisierte benutzerfreundliche Abfolge von Auf- 
forderungen verwendet, um den Benutzer durch den Ablauf 
bzw. die Sequenz zur visuellen Sprachwiedergabe iiber eine 
einzige (bzw. intcgricrte) physikalischc Schnittstelle, z. B. 
ein Telefon 150, zu fiihren, statt iiber mehrere und unter- 
schiedliche (und auBerdem haufig verwirrende) Schnittstel- 
len. Zu weiteren noch besser entwickelten Systemen zur In- 
teraktion mit dem Benutzer konnen auch die Benutzung des 
Fernsehgerats 240 oder eines anderen Bildschirmgerats zur 
visuellen Bildschirmdarstellung eines Menus mit Optionen 
gehoren, wobei die Steuersignale vom Benutzer entspre- 
chend eingegeben werden, z. B. als Anrufsteuerinformation 
oder als Informationen fiir einen vorzunehmenden Anruf, 
was auf unterschiedliche Weise geschehen kann, z. B. iiber 
die Tastatur auf den Telefonen 150, iiber eine Verbindung 
zur Infrarot-Fernsteuerung mit dem Gerat 201 zur visuellen 
Sprachwiedergabe, oder mittels des zweiten Komrnunikati- 
onskanals 227 (in Fig. 3 dargestellt) uber einen Bildeinga- 
bepfad. 

Das Blockschaltbild in Fig. 3 zeigt ein zweites bevorzug- 
tes Ausfuhrungsbeispiel des erfindungsgemaBen Gerats 301 
zur visuellen Sprachwiedergabe und des erfindungsgemaBen 
Systems 300 zur visuellen Sprachwiedergabe (und Sprach- 
generierung). Dabei umfaBt das System 300 zur visuellen 
Sprachwiedergabe (und Sprachgenerierung) ein Gerat 301 
zur visuellen Sprachwiedergabe und Spracherkennung, min- 
destens ein Telefon 150 und eine Tastatur 160 (als physika- 
lische Schnittstellen 155), mindestens ein Fernsehgerat 240 
(als eine Art Bildschirmgerat 225), das iiber den zweiten 
Kommunikationskanal 227 mit dem Gerat 301 zur visuellen 
Sprachwiedergabe und Sprachgenerierung gekoppelt ist, 
eine Videokamera 230 und eine Kameraschnittstelle 235. 
Die Videokamera 230 und die Kameraschnittstelle 235 wer- 
den in den hiermit zusammenhangenden Anmeldungen im 
einzelnen beschrieben und hier zum Zwecke der umfassen- 
den Moglichkeit zur Videokonferenz herangezogen; dies ge- 
schieht in der Form, daB ein Video- bzw. Bildsignal aus der 
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Videokamera 230 und der Kameraschnittstelle 235 in den 
Raumen des Benutzers (durch den Demodulator 275) demo- 
duliert und (im Teilsystem 265 zur Audio-/Video-Kompres- 
sion und -Dekompression) zur Ubertragung durch das Gerat 
301 zur visuellen Sprachwiedergabe und Sprachgenerierung 
iiber den ersten Kommunikationskanal 103 zu einem (hier 
nicht dargestellten) Netz 104 verarbeitet werden kann. 

Aus Fig. 3 ist des weiteren zu entnehmen, daB das Gerat 
301 zur visuellen Sprachwiedergabe und Sprachgenerierung 
viele derselben Bauelemente und Baugruppen umfaBt, die 
vorstehend unter Bezugnahme auf Fig. 2 erlautert wurde, 
z. B. eine Netzschnittstelle 110, eine Benutzertonschnitt- 
stelle 255, ein Mikroprozessor-Teilsystem 260, einen HF- 
Modulator 270 und einen Richtkoppler 290. Die Vorrich- 
tung zur visuellen Sprachwiedergabe und Sprachgenerie- 
rung umfaBt einen zweiten Typus eines Teilsystems (Prozcs- 
sors) zur visuellen Sprachwiedergabe, namlich das Teilsy- 
stem (bzw. den Prozessor) 310 zur visuellen Sprachwieder- 
gabe, der dazu eingesetzt wird, fiir die visuelle Darstellung 
gesprochener Sprache ein Untertitelformat zu bilden; des 
weiteren umfaBt das System auch ein Teilsystem (einen Pro- 
zessor) 320 zur Sprachgenerierung, welches eingegebenen 
Text in horbare Sprachsignale zur Ubertragung in das Netz 
104 umsetzt Die Vorrichtung zur visuellen Sprachwieder- 
gabe und Sprachgenerierung ist auBerdem nut mindestens 
einem Telefon 150 zur Eingabe von Steuersignalen und ei- 
ner Tastatur 160 zur Texteingabe (fiir die anschlieBende 
Sprachgenerierung) gekoppelt. Das Gerat zur visuellen 
Sprachwiedergabe und Sprachgenerierung wird ebenfalls in 
der Weise gesteuert, wie sie vorstehend anhand des Gerats 
201 zur visuellen Sprachwiedergabe erlautert wurde, und 
zwar durch Eingabe von Steuersignalen (vorzugsweise iiber 
ein Telefon 150). 

Wie in den zugehorigen Anmeldungen ausfuhrlich darge- 
stellt, fiihrt das Teilsystem 265 zur Audio-/Video-Komprcs- 
sion und -Dekompression die Kompression und Dekom- 
pression von Ton- und Bildsignalen vor, vorzugsweise unter 
Verwendung von Protokollen aus der Serie ITU H.32x; die- 
ses Teilsystem wird in erster Linie fur Videokonferenzschal- 
tungen eingesetzt. Fiir die visuelle Darstellung gesprochener 
Sprache aus dem Audioteil eines Videokonferenzanrufs (der 
iiber ein Netz 04 iibertragen wird) dekomprimiert das Teil- 
system 265 zur A udio-/Video- Kompression und -Dekom- 
pression das Tonsignal und trennt es vom Bildanteil des Vi- 
deokonferenzanrufs ab. Dabei wird auch der Bildanteil des 
Videokonferenzanrufs dekomprimiert und in ein Bildaus- 
gangssignal im Basisband umgewandelt (was in den hierzu 
gehorenden Anmeldungen im einzelnen beschrieben wird). 
Das Tonsignal wird dann vom Teilsystem 307 zur Spracher- 
kennung verarbeitet, urn eine Darstellung der gesprochenen 
Sprache in Form eines geschriebenen Textes zu bilden, wie 
vorstehend anhand von Fig. 2 erlautert wurde. Die Textdar- 
stellung der gesprochenen Sprache wird dann vom Unterti- 
tel-Kodierer 311 verarbeitet, indem die Textdarstellung in 
ein Untertitelformat umgesetzt wird, was bei spiels weise in 
der vertikalen Austastliicke geschehen kann. Der Untertitel- 
Kodierer 311 kann unter Verwendung eines handelsublichen 
oder speziell hierfur entwickelten Untertitel-Kodierers bzw. 
Prozessors realisiert werden. Das Untertitel-Bildsignal im 
Basisband wird dann in einer Mischerstufe 313 mit dem 
Bildausgangssignal im Basisband (aus dem Bildteil des Vi- 
deokonferenzanrufs) gemischt. Das gemischte Bildsignal, 
das nun die reine Bildinformation und die Untertitelinfor- 
mation enthalt, wird anschlieBend im HF-Modulator270 zur 
Darstellung auf einem der Fernsehgerate 240 moduliert und 
iibertragen. Bei diesem Ausfuhrungsbeispiel mit dem Sy- 
stem 301 umfaBt ein Fernsehgerat 240 vorzugsweise einen 
Untertiteldekoder zur Dekodierung und Darstellung des Un- 



tertitelsignals. 

Die zur Darstellung auf den verschiedenen Fernsehern 
oder anderen Bildschirmgeraten ubertragenen Informatio- 
nen zur visuellen Sprachwiedergabe konnen auch noch wei- 
5 tere Informationen enthalten. Beispielsweise laBt sich auch 
eine Lautstarkeinformation einbeziehen und darstellen, auch 
unter Verwendung einer Darstellung mit Sinuswellen zum 
Beispiel, wobei eine Amplitude mit der Lautstarke korreliert 
oder diesc darstcllt, oder unter Verwendung eines Fettdruck- 

10 oder Unterstreichungsformats, das ebenfalls mit der Laut- 
starke oder anderen Hervorhebungen in der gesprochenen 
Sprache korreliert. 

Die Vorrichtung 301 zur visuellen Sprachwiedergabe und 
Sprachgenerierung umfaBt auBerdem ein Teilsystem (einen 

15 Prozessor) 320 zur Sprachgenerierung, der mit einer Tasta- 
tur 160 zur Texteingabe fiir die anschlieBende Umsetzung in 
gesprochene Sprache und ttbermittlung an ein Netz 104 ge- 
koppelt ist. Bei dem bevorzugten Ausfuhrungsbeispiel ist 
das Teilsystem 320 zur Sprachgenerierung, das auch als 

20 Sprachgenerator-Prozessor bezeichnet wird, mit einer Soft- 
ware zur Sprachgenerierung programmiert, die eine Sonder- 
entwicklung fiir diesen Zweck oder eine handelsiibliche 
Software sein kann oder unter Verwendung von handelsiib- 
lichen integrierten oder anderen Schaltungselementen reali- 

25 sierbar ist. Wie vorstehend im Hinblick auf ein ankonunen- 
des Signal in gesprochener Sprache erlautert wurde, kann 
das in das Netz 104 zu ubertragende Ton- bzw. Sprachsignal 
je nach Art des Netzanschlusses unterschiedlich gebildet 
sein, wobei es sich zum Beispiel um ein analoges Tonsignal 

30 zu Ubermittlung an ein PSTN-Netz, ein digitales Sprachsi- 
gnal zur Ubertragung in ein ISDN- Netz oder um ein Sprach- 
signal nach CACS-Protokoll zur Ubertragung an eine Pri- 
marstation und anschlieBende Netzkommunikation handeln 
kann. Vorzugsweise wird zur Generierung von gesprochener 

35 Sprache Text iiber die Tastatur 160 in ein Teilsystem 321 
zum Festhalten von Text beispielsweise in ASCII-Kodie- 
rung oder in anders kodierter oder auch binarer Form einge- 
geben und dann wird der Text aus diesem Format in Sprach- 
format umgesetzt (in Wortern und Satzteilen), was in dem 

40 Teilsystem 322 zur Umsetzung von Text in Sprache ge- 
schieht. Das Sprachformatsignal wird dann in dem Sprach- 
synthesizer 323 in synthetisierte Sprache umgewandelt und 
kann danach in jedem geeigneten analogen, digitalen oder 
kodierten Format in ein Netz 104 iibertragen werden, 

45 Fig. 4 zeigt ein Ablaufdiagramm zur Veranschaulichung 
eines erfindungsgemaBen Verfahrens zur visuellen Sprach- 
wiedergabe und zur Sprachgenerierung. Fig. 4 zeigt dabei 
auch die verschiedenen Aufgaben bzw. Betriebsarten eines 
Telefons - z. B. des Telefons 150 - bei dem erfindungsge- 

50 maBen System auf, unter anderem fiir den normalen Tele- 
fonbetrieb (in POTS-Technik) zur fur Multimedia- Steue- 
rungszwecke, wozu auch Steuersignale zur Anwahl der Be- 
triebsarten zur visuellen Sprachwiedergabe und zur Video- 
konferenzschaltung gehoren. GemaB Fig. 4 beginnt das Ver- 

55 fahren mit dem Startschritt 400 und im Schritt 405 wird eine 
Bedienungsanforderung erfaBt, zum Beispiel Abheben oder 
Empfangen eines Meldesignals fiir einen ankommenden 
Anruf. Als nachstes erfolgt im Schritt 410 ein Hinweis bzw. 
eine Meldung an den Benutzer, z. B. mit visuell erkennba- 

60 rem oder horbare m Wahlton, ein Lautesignal fur einen an- 
kommenden Anruf oder ein sichtbares Signal zur Meldung 
eines ankommenden Anrufs, und es werden Meldeinforrna- 
tionen zusammengefaBt z. B. DTMF-Ziffern fur eine Tele- 
fonnummer oder "**". Wurde in Schritt 415 der Betriebs- 

65 modus zur visuellen Sprachdarstellung gewahlt, z. B. durch 
Eingabe von "**" oder wird eine ankommende Meldung aus 
dem Netz 104 empfangen, verzweigt das Verfahren zum 
Schritt 435. Wurde im Schritt 415 die Betriebsart zur visuel- 
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len Sprachdarstellung nicht angefordert, so lauft das Verfah- 
ren mit der Anforderung bzw. Anwahl eines normalen Tele- 
fongesprachs weiter, z. B. mit Generierung von DTMF-To- 
nen und Verbindung eines Audioschaltwegs zwischen dem 
Telefon des Benutzers und dem Netz 104 - Schritt 420 - 5 
woraufhin in den transparenten Telefonmodus geschaltet 
wird und Audiodaten (im typischen Fall PCM-Daten) im 
Schritt 425 zum Netz 104 ubermittelt werden. Die Audioda- 
ten wurden zuvor von der Benutzcrtonschnittstcllc 255 
PCM-kodiert und von der Netzschnittstelle 110 in ein ent- 10 
sprechendes digitales oder analoges Format (z. B. ISDN, 
POTS, etc.) zur Weiterleitung in das Netz 104 umgewandelt. 
Nach Beendigung des Telefongesprachs im Schritt 430 kann 
das Verfahren mit dem Ruckkehrschritt 500 beendet sein. 

Aus Fig. 4 ist des weiteren ersichtlich, daB bei Anforde- 15 
rung der Betriebsart zur visucllen Sprachwiedergabc im 
Schritt 415 das Verfahren zum Schritt 435 verzweigt und 
nun feststellt, ob auch Sprachgenerierung angefordert wird, 
Wurde im Schritt 435 auch die Sprachgenerierung verlangt 
so verzweigt das Verfahren auch weiter zum Schritt 475 zur 20 
Sprachgenerierung gleichzeitig mit visueller Sprachdarstel- 
lung. Wurde im Schritt 415 unabhangig von der Anforde- 
rung von Sprachgenerierung im Schritt 435 nur die visuelle 
Sprachwiedergabe angefordert, so schaltet das Verfahren 
zum Schritt 440 weiter und initialisiert das System zur visu- 25 
ellen Sprachwiedergabe, zum Beispiel durch Abspielen ei- 
ner einleitenden gesprochenen oder visuell dargestellten 
Aufforderung, wie vorstehend bereits erlautert wurde. Als 
nachstes wird im Schritt 445 ein Tonsignal empfangen, und 
das empfangene Tonsignal wird nun im Schritt 450 in eine 30 
Darstellung der gesprochenen Sprache in Textform umge- 
wandelt. Die Textdarstellung der gesprochenen Sprache 
wird anschlieBend im Schritt 455 in ein Bildausgangssignal 
im Basisband umgewandelt und so moduliert, daB im Schritt 
460 ein Hochfrequenz-Bildausgangssignal gebildet wird. 35 
Das Hochfrequenz-Bildausgangssignal wird anschlieBend 
im Schritt 465 zu einem Bildschirmgerat ubertragen. Nach 
Beendigung des Schrilles der visuellen Sprachdarstellung 
im Schritt 470 kann das Verfahren zur visuellen Sprachwie- 
dergabe mit dem Ruckkehrschritt 500 beendet werden. 40 

Wurde im Schritt 435 auch gleichzeitig mit dem Arbeits- 
gang zur visuellen Sprachwiedergabe in den vorstehend er- 
Iauterten Schritten 440 bis 470 die Sprachgenerierung ange- 
fordert, so verzweigt das Verfahren zum Schritt 475, um das 
Teilsystem zur Sprachgenerierung zu initial! sieren, was 45 
ebenfalls iiber die vorstehend dargestellten sichtbaren oder 
horbaren Aufforderungen geschieht. Als nachstes wird im 
Schritt 480 eingegebener Text empfangen und im Schritt 
485 wird der empfangene Eingabetext in ein Sprachsignal 
umgesetzt, das ein analog oder ein digital kodiertes Sprach- 50 
signal sein kann. Im Schritt 490 wird dann das Sprachsignal 
beispielsweise zu einem Telekornmunikationsnetz ubertra- 
gen; wenn dann der Arbeitsgang zur Sprachgenerierung im 
Schritt 495 beendet ist, kann das Verfahren mit dem Ruck- 
kehrschritt 500 beendet sein. 55 

Zahlreiche Vorteile der verschiedenen erfindungsgema- 
Ben Vorrichtungen, Verfahrensweisen und Systeme liegen 
klar auf der Hand. Zunachst sorgen die verschiedenen Ge- 
rate, Verfahren und Vorrichtungen gemaB der vorliegenden 
Erfindung fur die visuelle Darstellung bzw. Wiedergabe von 60 
gesprochener Sprache, ohne daB lokal und am entfernt lie- 
genden Ort bei einer Kommunikationsverbindung speziell 
nur fiir diesen Zweck vorgesehene Gerate und Systeme vor- 
ausgesetzt werden. Dabei kann jedes Telefon am entfernten 
bzw. weit abliegenden anderen Ende eingesetzt werden, wo- 65 
bei die ubermittelten Informationen in gesprochener Spra- 
che auf jedem angeschlossenen Fernsehgerat oder einem an- 
deren Bildschirmgerat uberall in den Raumen lokal beim 
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Benutzer angezeigt werden konnen. AuBerdem ist bei den 
verschiedenen Ausfuhrungsbeispielen der vorliegenden Er- 
findung kein groBerer Aufwand an manueller Betatigung fiir 
den Betrieb erforderlich. Beispielsweise ist es im Gegensatz 
zu Geraten nach dem Stand der Technik nicht erforderlich, 
den visuell darzustellenden Text iiber eine Tastatur einzuge- 
ben. AuBerdem entfallt die Notwendigkeit Systeme doppelt 
vorzusehen, so daB Gerat zur visuellen Sprachwiedergabe 
nur lokal am Kommunikationsort benotigt wird und sich da- 
mit die vorliegende Erfindung vergleichsweise kostengun- 
stig realisieren laBt. AuBerdem sind die erfindung sgemaBen 
Vorrichtungen und Systeme benutzerfreundlich, indem sie 
den Benutzer systematisch durch das Verfahren zum Einsatz 
und zur Steuerung des Arbeitsgangs zur visuellen Sprach- 
darstellung fuhren. 

Ein wciteres wichtiges Merkmal der erfindung sgemaBen 
Vorrichtung, des Verfahrens und der Systeme besteht darin, 
daB es sich um ein offenes System handelt, so daB jeder Be- 
nutzer des Gerats zur visuellen Sprachdarstellung mit jedem 
anderen kommunizieren kann, der Zugang zu einem Telefon 
hat, wodurch ein Kommunikationsmodell geschaffen wird, 
bei dem jeder mit alien kommunizieren kann, da ein moder- 
nes Telefon uberall anzutreffen ist. Dieser Vorteil steht in 
deutlichem Kontrast zu den geschlossenen Systemen nach 
dem Stand der Technik, bei denen speziell nur fiir diese 
Zwecke ausgebildete Systeme an alien Kommunikations- 
punkten vorhanden sein mussen, wodurch ein Kommunika- 
tionsmodell entsteht, bei dem einer nur mit jenen paar ande- 
ren kommunizieren kann, die zu diesen spezialisierten 
zweckgebundenen Geraten und Systemen Zugang haben. 
GemaB der vorliegenden Erfindung kann jeder Horbehin- 
derte iiber ein normales Telekornmunikationsnetz mit jedem 
anderen Teilnehmer kommunizieren, ohne daB an einem 
dieser entfernten Orte, an denen sich der andere Teilnehmer 
befindet, eine besonderc Ausriistung benotigt wird. Dieses 
Merkmal eines ofFenen Systems ist wirklich revolutionar 
und bisher einmalig, da es erstmals eine universelle Mog- 
lichkeit zur Kommunikation mit Horbehinderten iiber ein 
ganz normales Telekornmunikationsnetz bietet, das sich ir- 
gendwo auf der Welt befindet. 

Patentanspruche 

1. Vorrichtung zur visuellen Wiedergabe von Sprache, 
dadurch gekennzeichnet, daB sie folgendes aufweist: 
eine Netzschnittstelle (110), die mit einem ersten Kom- 
munikationskanal (103) zum Empfangen eines ersten 
Tonsignals zur Bildung eines Tonempfangssignals kop- 
pelbar ist; 

einen Hochfrequenzmodulator (270) zur Umwandlung 
eines Bildausgangssignals im Basisband in ein Hoch- 
frequenz-Bildausgangssignal auf einem zweiten Kom- 
munikationskanal (227) zur Bildanzeige; und 
eine Prozessorengruppe (130), welche mit der Netz- 
schnittstelle (110) und dem Hochfrequenzmodulator 
(270) gekoppelt ist und unter Ansteuerung durch einen 
Satz Programmbefehle in der Weise anspricht, daB sie 
das Tonempfangs signal in eine Sprachwiedergabe in 
Text:form umsetzt und weiterhin die Textdarstellung 
gesprochener Sprache in das Bildausgangssignal im 
Basisband umsetzt. 

2. Vorrichtung nach Anspruch 1, dadurch gekenn- 
zeichnet, daB sie eine mit der Netzschnittstelle (110) 
und der Prozessorengruppe (130) gekoppelte Benutzer- 
schnittstelle (120) zum Empfangen eines Steuersignals 
aus einer Vielzahl von Steuersignalen aufweist. 

3. Vorrichtung nach Anspruch 2, dadurch gekenn- 
zeichnet, daB die Ben utzerschnitts telle auBerdem mit 
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einer physikalischen Schnittstelle fur die Eingabe der 
Vielzahl von Steuersignalen koppelbar ist. 

4. Vorrichtung nach Anspruch 3, dadurch gekenn- 
zeichnet, daB die physikalische Schnittstelle ein Tele- 
fon ist. 5 

5. Vorrichtung nach Anspruch 3, dadurch gekenn- 
zeichnet, daB die physikalische Schnittstelle eine Ta- 
statur ist. 

6. Vorrichtung nach Anspruch 3, dadurch gekenn- 
zeichnet, daB die physikalische Schnittstelle ein Rech- to 
ner ist. 

7. Vorrichtung nach Anspruch 1, dadurch gekenn- 
zeichnet, daB in der Prozessoranordnung (130) eine 
Vielzahl von Betriebsarten vorgesehen ist, zu denen 
eine Teiefonbetriebsart und eine Betriebsart mit visuel- 15 
Lcr Sprachwiedergabe gchoren, und daB die Prozcsso- 
rengruppe (130) des weiteren mit Auswahl der Be- 
triebsart mit visueller Sprachdarstellung auf ein Steuer- 
signal anspricht. 

8. Vorrichtung nach Anspruch 1, dadurch gekenn- 20 
zeichnet, daB die Prozessoranordnung folgendes um- 
faBt: 

ein Mikroprozessor-Teiisy stern (260); 
einen mit dem Mikroprozessor-Teilsystem (260) ge- 
koppelten Speicher; und 25 
einen mit dem Mikroprozessor-Teilsystem (260) und 
dem Speicher gekoppelten Prozessor (305) zur visuel- 
len Sprachwiedergabe. 

9. Vorrichtung nach Anspruch 8, dadurch gekenn- 
zeichnet, daB der Prozessor (305) zur visuellen Sprach- 30 
wiedergabe weiterhin folgendes umfaBt: 

einen Prozessor (307) zur Spracherkennung; und 
einen mit dem Prozessor (307) zur Spracherkennung 
gekoppelten Prozessor (309) fiir die Wiedergabe auf ei- 
nem Bildschirm. 35 

10. Vorrichtung nach Anspruch 8, dadurch gekenn- 
zeichnet, daB der Prozessor (305) zur visuellen Sprach- 
wiedergabe weiterhin folgendes umfaBt: 

einen Prozessor (307) zur Spracherkennung; und 

einen mit dem Prozessor (307) zur Spracherkennung 40 

gekoppelten Untertiteikodierer (311). 
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